Cramér’s V (克莱姆V系数) - 是什么以及为什么?
By Ruben Geert van den Berg under Statistics A-Z & Correlation
Cramér’s V (克莱姆V系数) 是一个介于 0 和 1 之间的数字,用于衡量两个类别变量之间关联的强度。如果我们想知道两个类别变量是否相关,我们的第一个选择是 卡方独立性检验 (Chi-Square Independence Test)。 接近于零的 p 值 (p-value) 意味着我们的变量在某个总体中完全 不 相关的可能性非常低。 但是,这并不意味着变量之间 强烈相关 ; 在大样本量中即使是微弱的关联也可能导致 p = 0.000。
Cramér’s V (克莱姆V系数) - 公式
Cramér’s V (克莱姆V系数) 是一种可以指示关联强度的度量,定义为:
\[\phi_c = \sqrt{\frac{\chi^2}{N(k - 1)}}\]
其中:
- \(_c\) 表示 Cramér’s V (克莱姆V系数); \(\) 是希腊字母“phi”,指的是 “phi coefficient (Phi系数)”,它是 Cramér’s V (克莱姆V系数) 的一个特例,我们稍后会讨论。
- \(^2\) 是来自上述检验的 Pearson 卡方统计量;
- \(N\) 是测试中涉及的样本量;
- \(k\) 是两个变量中类别数量较少的一个。
Cramér’s V (克莱姆V系数) - 例子
一位科学家想知道音乐偏好是否与专业相关。 他询问了 200 名学生,得到了如下所示的列联表。
这些原始频率是我们进行各种计算所需要的,但它们并没有显示太多的模式。 如果我们检查行百分比而不是原始频率,则更容易看到变量之间的关联(如果有)。 如果我们将百分比可视化为堆积条形图,事情会变得更加清楚。
Cramér’s V (克莱姆V系数) - 独立性
在我们的第一个例子中,变量是完全独立的:\(^2\) = 0。根据我们的 公式 ,卡方 = 0 意味着 Cramér’s V (克莱姆V系数) = 0。 这意味着音乐偏好“不能说明”专业。 相关的表格和图表清楚地表明了这一点。
请注意,每个音乐偏好组中的专业分布是相同的。 如果我们想预测某人的专业,了解他的音乐偏好一点帮助都没有。 我们最好的猜测 始终 是法律或“其他”。
Cramér’s V (克莱姆V系数) - 中等关联
第二个 200 名学生的样本显示出不同的模式。 行百分比如下所示。
该表显示了音乐偏好和专业之间存在相当大的关联:音乐偏好组的专业分布不同。 例如,在所有喜欢流行音乐的学生中,有 60% 的人学习心理学。 那些喜欢古典音乐的人大多学习法律。 下图可视化了我们的表格。
请注意,音乐偏好在很大程度上说明了专业:了解前者对预测后者有很大帮助。 对于这些数据:
- \(^2 \) 113; 有关计算此卡方值的信息,请参阅 卡方独立性检验 - 快速入门 (Chi-Square Independence Test - Quick Introduction) 或 SPSS 卡方独立性检验 (SPSS Chi-Square Independence Test) 。
- 我们的样本量 N = 200,并且
- 我们有 4 个和 5 个类别的变量,因此 k = (4 -1) = 3。
由此得出:
\[\phi_c = \sqrt{\frac{113}{200(3)}} = 0.43.\]
这相当可观,但不是非常高,因为 Cramér’s V (克莱姆V系数) 的最大值为 1。
Cramér’s V (克莱姆V系数) - 完美关联
在第三个(也是最后一个)学生样本中,音乐偏好和专业是完全相关的。 下表和图显示了行百分比。
如果我们知道一个学生的音乐偏好,我们就能确定他的专业。 这意味着我们的变量是完全相关的。 但是,请注意,反过来是不成立的:我们无法从某人的专业中确定他的音乐偏好,但这不是完美关联所必需的:\(^2\) = 600 所以
\[\phi_c = \sqrt{\frac{600}{200(3)}} = 1,\]
这是 Cramér’s V (克莱姆V系数) 的最高可能值。
替代测量方法
- 两个名义变量的替代关联测量方法是 contingency coefficient (列联系数)。 但是,最好避免使用它,因为它的最大值取决于所涉及的列联表的维度。
- 对于两个有序变量,与 Cramér’s V (克莱姆V系数) 相比,Spearman 相关 (Spearman Correlation) 或 Kendall’s tau (肯德尔tau系数) 更可取。
- 对于两个度量变量,首选 Pearson 相关 (Pearson Correlation)。
- 如果两个变量都是 dichotomous (二分变量)(导致 2x2 表),请使用 phi coefficient (Phi系数),这只是在二分变量上计算的 Pearson 相关。
Cramér’s V (克莱姆V系数) - SPSS
在 SPSS 中,可以从 A nalyze (分析) D escriptive Statistics (描述统计)
C rosstabs (交叉表) 获得 Cramér’s V (克莱姆V系数)。 接下来,按照如下所示填写对话框。
警告:对于大于 2x2 的表格,SPSS 会返回 phi 的无意义值,而不会发出任何警告或错误。 这些值通常 > 1,这对于 Pearson 相关是不可能的。 奇怪的是,如果不获得这些疯狂的 phi 值,就无法请求 Cramér’s V (克莱姆V系数)。
最后说明
Cramér’s V (克莱姆V系数) 也被称为 Cramér’s phi (coefficient) (克莱姆phi系数)。 它是上述 phi coefficient (Phi系数) 的扩展,适用于大于 2x2 的表格,因此其表示为 \(_c\)。 有人认为它被“V”取代是因为旧计算机无法打印字母 \(\)。
感谢您的阅读。
参考文献
- Van den Brink, W.P. & Koele, P. (2002). Statistiek, deel 3 [Statistics, part 3]. Amsterdam: Boom.
- Field, A. (2013). Discovering Statistics with IBM SPSS Newbury Park, CA: Sage.
- Howell, D.C. (2002). Statistical Methods for Psychology (5th ed.). Pacific Grove CA: Duxbury.
- Slotboom, A. (1987). Statistiek in woorden [Statistics in words]. Groningen: Wolters-Noordhoff.
- Sheskin, D. (2011). Handbook of Parametric and Nonparametric Statistical Procedures . Boca Raton, FL: Chapman & Hall/CRC.